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(57) Abstract: The invention relates to a distributed speech recognition system. The inventive system consists of: at least one user 
^? terminal comprising means for obtaining an audio signal to be recognised, parameter calculation means and control means which 
£^ are used to select a signal to be transmitted; and a server comprising means for receiving the signal, parameter calculation means, 

recognition means and control means which are used to control the calculation means and the recognition means according to the 

signal received. 
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(57) Abrege : Un systeme de reconnaissance de parole distribute comporte au moins un terminal utilisateur, qui comprend des 
moyens d'obtention d'un signal audio a reconnaitre, des moyens de calcul de parametres et des moyens de controle pour selectionner 
un signal a emettre, et un serveur qui comprend des moyens de reception du signal, des moyens de calcul de parametres, des moyens 
de reconnaissance, et des moyens de controle pour commander les moyens de calcul et les moyens de reconnaissance en fonction du 
signal recu. 
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SYSTEME DE RECONNAISSANCE DE PAROLE DISTRIBUEE 

La presente invention est relative au domaine de la commande 
vocale duplications, exercee sur des terminaux utilisateurs, grace a la mise 
en oeuvre de moyens de reconnaissance de la parole. Les terminaux 
utilisateurs consideres sont tous les dispositifs dotes d'un moyen de capture de 
5 la parole, communement un microphone, possedant des capacites de 
traitement de ce son et relies a un ou des serveurs par un canal de 
transmission. II s'agit par exemple d'appareils de commande, de 
telecommande utilises dans des applications domotiques, dans des 
automobiles (commande d'auto-radio ou d'autres fonctions du vehicule), dans 

10 des PC ou des postes telephoniques. Le champ des applications concernees 
est essentiellement celui ou Tutilisateur commande une action, demande une 
information ou veut interagir a distance en utilisant une commande vocale. 
L'utilisation de commandes vocales n'exclut pas I'existence dans le terminal 
utilisateur d'autres moyens d'action (systeme multi-modal), et le retour 

15 d'informations, d'etats ou de reponses peut egalement se faire sous forme 
combin6e visuelle, sonore, olfactive et tout autre moyen humainement 
perceptif. 

De maniere generate, les moyens pour la realisation de la 
reconnaissance de parole comprennent des moyens d'obtention d'un signal 

20 audio, des moyens d'analyse acoustique qui extraient des parametres de 
modelisation et enfin des moyens de reconnaissance qui comparent ces 
parametres de modelisation calculus a des modeles, et proposent la forme 
memorisee dans les modeles qui peut etre associ6e au signal de la fagon la 
plus probable. Optionnellement des moyens de detection d'activite vocale VAD 

25 (" Voice Activation Detection ") peuvent etre utilises, lis assurenf la detection 
des sequences correspondant a de la parole et devant etre reconnues. Ms 
extraient du signal audio en entree, en-dehorfe des periodes d'inactivit6 vocale, 
des segments de parole, qui seront ensuite traites par les moyens de calcul 
des parametres de modelisation. 
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Plus particulierement, I'invention porte sur. les interactions entre 
les trois modes de reconnaissance de la parole dits embarque, centralise et 
distribue. 

Dans un mode de reconnaissance de parole embarquee, 
5 I'ensemble des moyens pour effectuer la reconnaissance de parole se trouvent 
au niveau du terminal utilisateur. Les limitations de ce mode de reconnaissance 
sont done liees notamment a la puissance des processeurs embarques, et a la 
memoire disponible pour stacker les modeles de reconnaissance de parole. En 
contrepartie, ce mode autorise un fonctionnement autonome, sans connexion a 

10 un serveur, et a ce tltre est voue a un fort developpement lie a la reduction du 
cout de la capacite de traitement. 

Dans un mode de reconnaissance de la parole centralist, toute 
la procedure de reconnaissance de parole et les modeles de reconnaissance 
se trouvent et s'executent sur une machine, appelee generalement serveur 

15 vocal, accessible par le terminal utilisateur. Le terminal transmet simplement au 
serveur un signal de parole. Cette methode est utilisee notamment dans les 
applications offertes par les operateurs de telecommunication. Un terminal 
basique peut ainsi acceder a des services evolues, actives § la voix. De 
nombreux types de reconnaissance de parole (robuste, flexible, tres grand 

20 vocabulaire, vocabulaire dynamique, parole continue, mono ou multi locuteurs, 
plusieurs langues, etc) peuvent etre jmplementes dans un serveur de 
reconnaissance de parole. En effet, les machines centralisees ont des 
capacites de stockage de modeles, des tailles de memoire de travail et des 
puissances de calcul importantes et croissantes. 

25 Dans un mode de reconnaissance de parole distribute, les 

moyens d'analyse acoustique sont embarques dans le terminal utilisateur, les 
moyens de reconnaissance etant au niveau du serveur. Dans ce mode 
distribue, une fonction de debruitage associee aux moyens de calcul des 
parametres de modelisation peut etre avantageusement realisee a la source. 

30 Seuls les parametres de modelisation sont transmis, ce qui permet un gain 
substantiel en d6bit de transmission, particulierement interessant pour les 
applications multimodals. De plus, le signal a reconnaTtre peut etre mieux 
protege contre les erreurs de transmission. Optionnellement on peut aussi 
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embarquer la detection d'activite vocale (VAD) pour ne transmettre les 
parametres de modelisation que durant les sequences de parole, ce qui a pour 
avantage de reduire de maniere importante la duree de transmission active. La 
reconnaissance de parole distribute permet en outre de vehiculer sur le meme 
5 canal de transmission des signaux de parole et de donnees, notamment texte, 
images ou videos. Le reseau de transmission peut etre par exemple de type IP, 
GPRS, WLAN ou Ethernet Ce mode permet egalement de btneficier de 
procedures de protection et de correction contre les pertes de paquets 
constituant le signal transmis a destination du serveur. Cependant il necessite 
10 la disponibilite de canaux de transmission de donnees, avec un protocole strict 
de transmission. 

L'invention propose un systeme de reconnaissance de parole 
comportant des terminaux utilisateurs et des serveurs combinant les difftrentes 
fonctions offertes par les modes de reconnaissance de parole embarquee, 
15 centralists et distribute, pour offrir le maximum d'efficacite, de contort et 
d'ergonomie aux utilisateurs de services multi modaux ou la commande vocale 
est utilisee. 

Le brevet US 6 487 534-B1 decrit un systeme de reconnaissance 
de parole distribute comportant un terminal utilisateur disposant des moyens 

20 de detection d'activite vocale, de moyens de calcul des parametres de 
modelisation et de moyens de reconnaissance. Ce systeme comprend en outre 
un serveur disposant egalement de moyens de reconnaissance. Le principe 
decrit est de realiser au moins une premiere phase de reconnaissance au 
niveau du terminal utilisateur. Dans une deuxieme phase optionnelle, les 

25 parametres de modelisation calcules au niveau du terminal sont envoyes a 
destination du serveur, afin notamment de determiner cette fois grace aux 
moyens de reconnaissance du serveur, une forme memoriste dans les 
modeles de celui-ci et associte au signal envoye. 

Le but vise par le systeme decrit dans le document cite est de 

30 diminuer la charge au niveau du serveur. Cependant il s'ensuit que le terminal 
doit realiser le calcul des parametres de modelisation en local avant de les 
transmettre tventuellement a destination du serveur. Or il y a des 
circonstances ou, pour des raisons de gestion de charge ou pour des raisons 
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applicatives, il est preferable de r6aliser ce calcul au niveau du serveur. 

II s'ensuit egalement que les canaux utilises pour la transmission 
des parametres de modelisation a reconnaTtre, dans un systeme selon le 
document cite ci-dessus, doivent etre imperativement des canaux aptes a 
5 transmettre ce type de donnees. Or lorsque de tels canaux au protocole tres 
strict ne sont pas forcement disponibles en permanence sur le r6seau de 
transmission. C'est pourquoi il est interessant de pouvoir utiliser des canaux 
classiques de transmission de signaux audio, pour ne pas retarder ou bloquer 
le processus de reconnaissance entam6 au niveau du terminal. 

10 Un but de la pr6sente invention est de proposer un systeme 

distribue qui soit moins affecte par les limitations citees ci-dessus. 

Ainsi suivant un premier aspect, I'invention propose un systeme 
de reconnaissance de parole distribute, comportant au moins un terminal 
utilisateur et au moins un serveur aptes a communiquer entre eux par 

15 Pinterm§diaire d'un reseau de telecommunications, dans lequel le terminal 
utilisateur comprend : 

- des moyens d'obtention d'un signal audio a reconnaTtre ; 

- des premiers moyens de calcul de parametres de modelisation du 
signal audio; et 

20 - des premiers moyens de controle pour selectionner au moins un signal 

a tmettre a destination du serveur parmi le signal audio a reconnaTtre 
et un signal indiquant les parametres de modelisation calcules, . 

et dans lequel le serveur comprend : 

- des moyens de reception du signal selectionne en provenance du 
25 terminal utilisateur ; 

- des seconds moyens de calcul de parametres de modelisation d'un 
signal d'entree ; 

- des moyens de reconnaissance pour associer au moins une forme 
memorisee a des parametres d'entree ; et 

30 - des seconds moyens de controle pour commander les seconds 

moyens de calcul et les moyens de reconnaissance de fa9on a 
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• lorsque le signal selectionne regu par les moyens de reception 
est de type audio, activer les seconds moyens de calcul de 
parametres en leur adressant le signal selectionne en tant que 
signal d'entree, et adresser les parametres calcules par les 

5 seconds moyens de calcul aux moyens de reconnaissance en 

tant que parametres d'entree, et 

• lorsque le signal selectionne regu par les moyens de reception 
indique des parametres de moderation, adresser lesdits 
parametres indiques aux moyens de reconnaissance en tant 

1 0 que parametres d'entree. 

Ainsi le systeme selon Tinvention permet de transmettre depuis le 
terminal utilisateur a destination du serveur soit le signal audio (compresse ou 
non), soit le signal d6livre par les moyens de calcul des parametres de 
modelisation du terminal. Le choix du signal transmis peut etre defini soit par le 

15 type duplications en cours, soit par I'etat du reseau, soit suite a une 
coordination entre les moyens de controle respectifs du terminal et du serveur: 
Un systeme selon I'invention donne la capacite au terminal 
utilisateur de realiser, en fonction par exemple de parametres d'entree dont les 
moyens de controle disposent a un instant donne, le calcul des parametres de 

20 modelisation au niveau du terminal ou au niveau du serveur. Ce calcul peut 
egalement etre r6alis§ en parallele au niveau du terminal et au niveau du 
serveur. 

Un systeme selon I'invention . permet d'effectuer la 
reconnaissance vocale depuis des terminaux de differents types coexistant au 
25 sein d'un meme reseau, par exemple : 

- des terminaux ne disposant d'aucun moyen de reconnaissance local 
(ou dont le moyen de reconnaissance local est inactif), auquel cas le signal 
audio est envoye pour reconnaissance a destination du serveur ; 

- des terminaux disposant de moyens de detection d'activite vocale sans 
30 moyens de calcul de parametres de modelisation, ni moyens de 

reconnaissance (ou dont les moyens de calcul de parametres et les moyens 
de reconnaissance sont inactifs), et transmettant au serveur pour 
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reconnaissance un signal audio d'origine ou un signal audio representatif de 
segments de parole extraits du signal audio en-dehors des periodes 
d'inactivite vocale, 

- et des serveurs disposant par exemple uniquement de 
5 moyens de reconnaissance, sans moyens de calcul de parametres de 
modelisation. 

Avantageusement, les moyens d'obtention du signal audio du 
terminal utilisateur peuvent comprendre en outre des moyens de detection 
d'activite vocale pour extraire du signal audio d'origine, en-dehors des periodes 

10 d'inactivite vocale, des segments de parole. Les moyens de controle du 
terminal selectionnent alors au moins un signal a emettre a destination du 
serveur, parmi un signal audio representatif des segments de parole et le 
signal indiquant les parametres de modelisation calcules. 

Avantageusement les moyens de controle du terminal sont 

15 adaptes pour s§lectionner au moins un signal a emettre a destination du 
serveur parmi au moins le signal audio d'origine, le signal audio indiquant les 
segments de parole extraits du signal audio d'origine et le signal indiquant des 
parametres de modelisation calcules. Au niveau du serveur, les moyens de 
controle sont adaptes pour commander les moyens de calcul et les moyens de 

20 reconnaissance de fagon a, lorsque le signal selectionne regu par les moyens 
de reception est representatif des segments de parole extraits par les moyens 
de detection d'activite vocale du terminal, activer les moyens de calcul de 
parametres du serveur en leur adressant le signal selectionne en tant que 
signal d'entree, et adresser les parametres calcules par ces moyens de calcul 

25 aux moyens de reconnaissance en tant que parametres d'entree. 

Dans un mode de realisation prefere, le serveur comporte en 
outre des moyens de detection d'activite vocale pour extraire d'un signal regu 
de type audio, en-dehors des periodes d'inactivite vocale, des segments de 
parole. Dans ce cas, au niveau du serveur, les moyens de controle sont 

30 adaptes pour commander les moyens de calcul et les moyens de 
reconnaissance de fagon a 

• lorsque le signal selectionne regu par les moyens de reception 
est de type audio : 
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si le signal regu de type audio est representatif de segments 
de parole apres detection d'activite vocale, activer les 
seconds moyens de calcul de parametres en leur adressant le 
signal selectionne en tant que signal d'entree, puis adresser 
5 les parametres calcules par les seconds moyens de calcul de 

parametres aux moyens de reconnaissance en tant que 
parametres d'entree ; 

sinon activer les moyens de detection d'activite vocale du 
serveur en leur adressant le signal selectionne en tant que 

10 signal d'entree, puis adresser les segments extraits par les 

moyens de detection d'activite vocale aux seconds moyens 
de calcul de parametres en tant que parametres d'entree, 
puis adresser les parametres calcules par les seconds 
moyens de calcul de parametres aux moyens de 

15 reconnaissance en tant que parametres d'entree ; 

° lorsque le signal selectionne regu par les moyens de reception indique 
des parametres de modelisation, adresser lesdits parametres indiques 
aux moyens de reconnaissance en tant que parametres d'entree. 

Avantageusement, le terminal utilisateur comprend en outre des 
20 moyens de reconnaissance pour associer au moins une forme memorisee a 

des parametres d'entree. 

» 

Dans ce dernier cas, les moyens de controle du terminal peuvent 
etre adaptes pour selectionner un signal a emettre a destination du serveur en 
fonction du resultat foumi par les moyens de reconnaissance du terminal. Et le 

25 terminal utilisateur peut comporter en outre des moyens de stockage adaptes 
pour stocker un signal au niveau du terminal, pour pouvoir, au cas ou le 
resultat de la reconnaissance locale au terminal n'est pas satlsfaisante, 
envoyer le signal pour reconnaissance par le serveur. 

Avantageusement, les moyens de controle du terminal peuvent 

30 etre adaptes pour selectionner un signal a emettre a destination du serveur 
independamment du resultat foumi par des premiers moyens de 
reconnaissance. 
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II faut noter que les moyens de controle d'un terminal peuvent 
passer de Tun a I'autre des deux modes decrits dans les deux paragraphes ci- 
dessus, en fonction par exemple du contexte applicatif, ou de I'etat du reseau. 

De preference, les moyens de controle du serveur cooperent 
5 avec les moyens de controle du terminal. Le terminal peut ainsi tviter 
d'envoyer a destination du serveur par exemple un signal audio s'H y a deja 
une charge importante au niveau des moyens de calcul de parametres du 
serveur. Dans un mode possible de realisation, les moyens de controle du 
serveur sont configures pour cooperer avec les moyens du terminal pour 
10 adapter le type de signaux envoyes par le terminal en fonction des capacites 
respectives du reseau, du serveur et du terminal. 

Les moyens de calcul et de reconnaissance du terminal peuvent 
etre normalises ou proprietaires. 

Dans un mode de realisation prefere, certains au moins parmi les 
1 5 moyens de reconnaissance et de calcul de parametres au niveau du terminal 
lui ont ete foumis par ttlechargement, sous forme de code executable par le 
processeur du terminal, par exemple depuis le serveur. 

Selon un deuxieme aspect, Tinvention propose un terminal 
utllisateur pour mettre en oeuvre un systeme de reconnaissance de parole 
20 distribute selon ('invention. 

Selon un troisieme aspect, I'invention propose un serveur pour 
mettre en oeuvre un systeme de reconnaissance de parole distribute selon 
invention. 

D'autres caracteristiques et avantages de I'invention apparaTtront 
25 encore a la lecture de la description qui va suivre. Celle-ci est purement 
illustrative et doit etre lue en regard des dessins annexes sur lesquels : 

la figure unique est un schema representant un systeme dans 
un mode de realisation de la presente invention. 
Le systeme represente sur la figure unique comporte un serveur 1 et 
30 un terminal utilisateur 2, qui communiquent entre eux par Tintermediaire d'un 
reseau (non represente) disposant de canaux pour la transmission de signaux 
de voix et de canaux pour la transmission de signaux de donnees. 



WO 2004/088636 



PCT/FR2004/000546 



Le terminal 2 comporte un microphone 4, qui recueille la parole a 
reconnaTtre d'un utilisateur sous forme d'un signal audio. Le terminal 2 
comporte egalement un module de calcul de parametres de moderation 6, qui 
realise de fagon connue en soi une analyse acoustique permettant d'extraire 
5 les parametres pertinents du signal audio, et. eventuellement pouvant 
avantageusement realiser une fonction de d6bruitage. Le terminal 2 comprend 
^ un controleur 8, qui selectionne un signal parmi le signal audio et un signal 
Indicatif des parametres calcules par le module de calcul de parametres 6. II 
comprend en outre une Interface 10 pour remission sur le reseau du signal 

10 selectionne, a destination du serveur, 

Le serveur 1 comporte une interface reseau 12 pour recevoir les 
signaux qui lui sont adresses, un controleur 14 qui analyse le signal regu et le 
dirige ensuite selectivement vers un module de traitement parmi plusieurs 
modules 16,18,20. Le module 16 est un detecteur d'activite vocale, qui assure 

15 la detection des segments correspondant a de la parole et devant etre 
reconnus. Le module 18 assure le calcul de parametres de moderation de 
fagon semblabie au module de calcul 6 du terminal. Toutefois, le modele de 
calcul peut etre different. Le module 20 execute un algorithme de 
reconnaissance de type connu, par exemple a base de modeles de Markov 

20 caches avec un vocabulaire par exemple superieur a 100 000 mots. Ce moteur 
de reconnaissance 20 compare les parametres en entree a des modeles de 
parole qui represented des mots ou des phrases, et determine la meilleure 
forme associee, compte tenu de modeles syntaxiques qui decrivent les 
enchaTnements de mots attendus, de modeles lexicaux qui precisent les 

25 differentes prononciations des mots, et de modeles acoustiques repr6sentatifs 
des sons prononces. Ces modeles sont par exemple multilocuteurs, capables 
de reconnaTtre, avec une bonne fiabilite, de la parole, independamment du 
locuteur. 

Le controleur 14 commande le module de VAD 16, le module de calcul 
30 de parametres 18 et le moteur de reconnaissance 20 de fagon a : 

a/ lorsque le signal regu par Interface de reception 12 est de type 
audio et n'indique pas des segments de parole obtenus par detection d'activite 
vocale, activer le module VAD 16 en lui adressant le signal regu en tant que 
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signal d'entree, puis adresser les segments de parole extraits par le module 
VAD 16 au module de calcul de parametres 18 en tant que parametres 
d'entree, puis adresser les parametres calculus par ces moyens de calcul de 
parametres 18 au moteur de reconnaissance 20 en tant que parametres 
5 d'entree ; 

b/ lorsque le signal regu par Tinterface de reception 12 est de type 
audio et indique des segments de parole apres detection d'activite vocale, 
activer le module de calcul de parametres 18 en lui adressant le signal regu en 
tant que signal d'entree, puis adresser les parametres calculus par ce module 

10 de calcul de parametres 18 au moteur de reconnaissance 20 en tant que 
parametres d'entree ; 

c/ lorsque le signal regu par Tinterface de reception 12 indique des 
parametres de modelisation, adresser lesdits parametres indiques au moteur 
de reconnaissance 20 en tant que parametres d'entree. 

15 Par exemple, dans le cas ou I'utilisateur du terminal 1 utilise une 

application permettant de demander des informations sur la bourse et enonce : 
« cours de cloture des trois demiers jours de la valeur Lambda », le signal 
audio correspondant est capture par le microphone 4. Dans le mode de 
realisation du systeme selon I'invention, ce signal est ensuite, par defaut, traite 

20 par le module de calcul de parametres 6, puis un signal indiquant les 
parametres de modelisation calcules est envoye vers le serveur 1 . 

Quand par exemple des problemes de disponibilite de canaux de 
donnees ou du module de calcul 6 surgissent, c'est le signal audio en sortie du 
microphone 4 que le controleur 8 s6lectionne alors pour le transmettre a 

25 destination du serveur 1 . 

Le controleur peut aussi etre adapte pour envoyer systematiquement 
un signal indiquant les parametres de modelisation. 

Le serveur receptionne le signal avec I'interface de reception 12, puis 
realise, pour effectuer la reconnaissance de parole sur le signal regu, le 

30 traitement indique en a/ ou b/ si le signal envoye par le terminal 1 est de type 
audio ou le traitement indique en c/ si le signal envoye par le terminal 1 indique 
des parametres de modelisation. 
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Le serveur selon I'invention est egalement apte a effectuer de la . 
reconnaissance de parole sur un signal transmis par un terminal ne disposant 
pas de moyens de calcul de parametres de modelisation, ni de moyens de 
« reconnaissance et disposant eventuejlement de moyens de detection d'activite 
5 vocale. 

Avantageusement, dans un mode de realisation de I'invention, le 
systeme peut comporter en outre un terminal utilisateur 22, qui comporte un 
microphone 24 similaire a celui du terminal 2, un module 26 de detection 
d'activite vocale. La fonction du module 26 est semblable a celle du module de 
0 detection d'activite vocale 16 du serveur 1, Toutefois le modele de detection 
peut etre different. Le terminal 22 comporte un module de calcul de parametres 
de modelisation 28, un moteur de reconnaissance 30 et un controleur 32. II 
comprend une interface 10 pour remission sur le reseau, a destination du 
serveur, du signal selectionne par le controleur 32. 
5 Le moteur de reconnaissance 30 du terminal peut par exemple traiter 

un vocabulaire de moins de 10 mots. II peut fonctionner en mode 
monolocuteur, et necessiter une phase d'apprentissage prealable a partir de la 
voix de I'utilisateur. 

La reconnaissance de parole peut s'effectuer de differentes facons : 
exclusivement au niveau du terminal, ou 
ou exclusivement au niveau du serveur, ou 
partiellement ou totalement au niveau du terminal et 
egalement, de maniere alternative ou simultanee, 
partiellement ou totalement au niveau du serveur. 
Quand un choix doit etre effectue sur la forme finalement retenue entre 
une forme associee fournie par le module de reconnaissance du serveur et une 
forme associee fournie par ceux du terminal, il peut s'effectuer sur la base de 
differents criteres, qui peuvent varier d'un terminal a I'autre, mais aussi d'une 
application a I'autre ou d'un contexte donne a un autre. Ces criteres peuvent 
donner par exemple priorite a la reconnaissance effectuee au niveau du 
terminal, ou a la forme associee presentant le plus fort taux de probabilite, ou 
encore a la forme determinee le plus rapidement. 
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La facon dont s'effectue cette reconnaissance peut etre figee au niveau 
du terminal dans un mode donne. Ou elle peut varier en fonction notamment de 
criteres lies a l'application concernee, a des problematiques de charge des 
differents moyens au niveau du terminal et du serveur, ou encore a des 
5 problematiques de disponibilite de canaux de transmission voix ou donnees. 
Les controleurs 32 et 14 situes respectivement au niveau du terminal et du 
serveur traduisent la facon dont doit s'effectuer la reconnaissance. 

Le controleur 32 du terminal est adapte pour s6lectionner un signal 
parmi le signal audio d'origine en sortie du microphone 24, un signal audio 

10 representatif des segments de parole extraits par le module VAD 26 et un 
signal indiquant des parametres de modelisation 28. Suivant les cas, le 
traitement au niveau du terminal se poursuivra ou non au-dela de I'etape de 
traitement du terminal delivrant le signal a emettre. 

Par exemple, considerons un mode de realisation dans lequel le 

1 5 module VAD 26 du terminal est concu par exemple pour detecter rapidement 
des mots de commandes et le module VAD 16 du serveur peut etre plus lent, 
mais est concu pour detecter des phrases entieres. Une application, dans 
laquelle le terminal 22 effectue une reconnaissance en local et de fagon 
simultanee fait effectuer une reconnaissance par le serveur a partir du signal 

20 audio transmis, permet notamment de cumuler les avantages de chaque 
module de detection vocale. 

Considerons a present une application dans laquelle la reconnaissance 
est effectuee exclusivement en local (terminal) ou exclusivement distante 
(serveur centralise), sur la base de mots-cles permettant la commutation : 

25 La reconnaissance en cours est d'abord locale : I'utilisateur enonce : 

« appelle Antoine », Antoine figurant dans le repertoire local. Puis ii enonce 
« messagerie », mot-cl§ qui est reconnu en local et qui fait basculer en 
reconnaissance par le serveur. La reconnaissance est maintenant distante. II 
enonce « rechercher le message de Josiane ». Lorsque ledit message a ete 

30 ecoute, il enonce « termine », mot-cle qui fait a nouveau basculer Tapplication 
en reconnaissance locale. 
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Le signal transmis au serveur pour y effectuer la reconnaissance etait 
de type signal audio. Dans un autre mode de realisation, il pourrait indiquer les 
parametres de modelisation calculus dans le terminal. 

Considerons maintenant une application dans laquelle la 
5 reconnaissance au niveau du terminal et celle au niveau du serveur sont 
alternees. La reconnaissance est d'abord effectuee au niveau du terminal 22 et 
le signal apres detection vocale est stocks. Si la reponse est consistante, c'est- 
a-dire s'il n'y a pas de rejet du module de reconnaissance 30 et si le signal 
reconnu est valide du point de vue applicatif, Tapplicatif local au terminal passe 

10 a la phase applicative suivante. Dans le cas contraire, le signal stocke est 
envoyee au serveur pour effectuer la reconnaissance sur un signal indiquant 
des segments de parole apres detection d'activite vocale sur le signal audio 
(dans un autre mode de realisation, ce sont les parametres de modelisation qui 
pourraient etre stockes) 

15 Ainsi I'utilisateur 6nonce « appelle Antoine » ; Pensemble du traitement 

au niveau du terminal 22 s'effectue avec stockage du signal. Le signal est 
reconnu avec succes en local. II enonce alors « rechercher le message de 
Josiane » ; la reconnaissance au niveau du terminal echoue ; le signal stocke 
est alors transmis au serveur. Le signal est bien reconnu et le message 

20 demande est joue. 

Dans une autre application, la reconnaissance se fait simultanement au 
niveau du terminal et egalement, et ce independamment du resultat de la 
reconnaissance locale, au niveau du serveur. L'utilisateur enonce « appelle 
Antoine ». La reconnaissance se deroule aux deux niveaux. Comme le 

25 traitement local interprete la commande, le resultat distant n'est pas considere. 
Puis Tutilisateur enonce « rechercher le message de Josiane » qui genere un 
6chec en local, et qui est bien reconnu au niveau du serveur. 

Dans un mode de realisation, le moteur de reconnaissance 30 du 
terminal 22 est un programme executable telecharge depuis le serveur par des 

30 moyens classiques de transfert de donnees. 

Avantageusement, pour une application donnee du terminal 22, des 
modeles de reconnaissance du terminal peuvent etre telecharges ou mis a jour 
au cours d'une session applicative connectee au reseau. 
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D'autres ressources logicielles utiles a la reconnaissance de parole 
peuvent aussi etre telechargees depuis le serveur 1 , comme le module 6,28 de 
calcul de parametres de moderation ou le detecteur d'activite vocale 26. 

D'autres exemples pourraient etre decrits, mettant en ceuvre par 
5 exemple des applications Itees aux voitures, a relectromenager, multimedia. 

Comme presente dans les exemples de realisation ci-dessus decrits, 
un systeme selon Tinvention permet d'utiliser de fagon optimisee les differentes 
ressources necessaires au traitement de la reconnaissance de la parole et 
presentes au niveau du terminal et du serveur. 
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REVENDICATIONS 

1. Systeme de reconnaissance de parole distribute, comportant au 
moins un terminal utilisateur et au moins un serveur aptes a communiquer 
entre eux par I'intermediaire d'un reseau de telecommunications, dans lequel le 
terminal utilisateur comprend : 
5 - des moyens d'obtention d'un signal audio a reconnaTtre ; 

des premiers moyens de calcul de parametres de mod6lisation du 
signal audio; et 

des premiers moyens de controle pour selectionner au moins un 
signal a emettre a destination du serveur parmi le signal audio a 
10 reconnaTtre et un signal indiquant les parametres de modelisation 

calcules, 

et dans lequel le serveur comprend : 

des moyens de reception du signal selectionne en provenance du 
terminal utilisateur ; 

15 - des seconds moyens de calcul de parametres de parametres de 

modelisation d'un signal d'entree ; 

des moyens de reconnaissance pour associer au moins une forme 
memorisee a des parametres d'entree ; et 

des seconds moyens de controle pour commander les seconds 
20 moyens de calcul et les moyens de reconnaissance de fa?on a 

lorsque le signal selectionne regu par les moyens de reception est 
de type audio, activer les seconds moyens de calcul de parametres en leur 
adressant le signal selectionne en tant que signal d'entree, et adresser les 
parametres calcules par les seconds moyens de calcul aux moyens de 
25 reconnaissance en tant que parametres d'entree, et 

lorsque le signal selectionne regu par les moyens de reception 
indique des parametres de modelisation, adresser lesdits parametres indiques 
aux moyens de reconnaissance en tant que parametres d'entree. 
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2. Systems selon la revendication 1, dans lequel les moyens 
d'obtention du signal audio a reconnaTtre comprennent des moyens de 
detection d'activite vocale pour produire le signal a reconnaTtre sous forme 
d'extraits d'un signal audio d'origine, en-dehors de segment de parole de 

5 periodes d'inactivite vocale. 

3. Systeme selon la revendication 2, dans lequel les premiers moyens 
de controle sont adaptes pour selectionner le signal a emettre a destination du 
serveur parmi au moins le signal audio d'origine, le signal audio a reconnaTtre 

10 sous forme des segments extraits par les moyens de detection d'activite 
vocale et le signal indiquant des parametres de modelisation calcules par les 
premiers moyens de calcul de parametres. 

4. Systeme selon Tune quelconque des revendications precedentes, 
15 dans lequel : 

- le serveur comports en outre des moyens de detection d'activite 
vocale pour extraire d'un signal de type audio en-dehors de periodes 
d'inactivite vocale des segments de parole ; et 

- les seconds moyens de controle sont adaptes pour commander les 
20 seconds moyens de calcul et les moyens de reconnaissance lorsque 

le signal selectionne recu par les moyens de reception est de type 
audio de facon a 

si le signal de type audio est representatif de segments de parole apres 
detection d'activite vocale, activer les seconds moyens de calcul de 

25 parametres en leur adressant le signal selectionne en tant que signal d'entree, 
puis adresser les parametres calcules par les seconds moyens de calcul de 
parametres aux moyens de reconnaissance en tant que parametres d'entree ; 

sinon activer les moyens de detection d'activite vocale du serveur en 
leur adressant le signal recu en tant que signal d'entree, puis adresser les 

30 segments extraits par les seconds moyens de detection d'activite vocale aux 
seconds moyens de calcul de parametres en tant que signal d'entree, puis 
adresser les parametres calcules par les seconds moyens de calcul de 
parametres aux moyens de reconnaissance en tant que parametres d'entree. 
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5. Systeme selon les revendications 1 a 4, dans lequel le terminal 
utilisateur comprend en outre des moyens de reconnaissance pour associer au 
moins une forme memorisee aux parametres de modelisation calcules par les 
premiers moyens de calcul. 

5 

6. Systeme selon la revendication 5, dans lequel les premiers moyens 
de controle sont adaptes pour selectionner le signal a emettre a destination du 
serveur en fonction du resultat foumi par les moyens de reconnaissance du 
terminal. 

10 

7. Systeme selon Tune des revendications 5 a 6, dans lequel le 
terminal utilisateur comporte en outre des moyens de stockage adaptes pour 
stacker le signal audio a reconnaitre ou les parametres de modelisation 
calcules par les premiers moyens de calcul de parametres. 

15 

8. Systeme selon la revendication 5, dans lequel les premiers moyens 
de controle sont adaptes pour selectionner un signal a emettre a destination du 
serveur independamment du r6sultat fourni par des moyens de reconnaissance 
du terminal. 

20 

9. Terminal utilisateur pour mettre en oeuvre un systeme de 
reconnaissance de parole distribute selon Tune des revendications 1 a 8, 
comportant : 

des moyens d'obtention d'un signal audio a reconnaitre ; 
25 - des moyens de calcul de parametres de modelisation du signal 

audio ; et 

des premiers moyens de controle pour selectionner au moins un 
signal a emettre a destination d'un serveur parmi le signal audio a 
reconnaitre et un signal indiquant des parametres de 
30 modelisation calcules. 
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10. Terminal utilisateur selon la revendication 9, dans lequel au moins 
une partie des moyens de calcul de parametres est telechargee depuis le 
serveur. 



5 11. Terminal selon la revendication 9 ou 10 comprenant en outre des 

moyens de reconnaissance pour associer au moins une forme memorisee aux 
parametres de modelisation. 

12. Terminal utilisateur selon la revendication 11, dans lequel au moins 
10 une partie des moyens de reconnaissance est telechargee depuis le serveur. 



13. Serveur pour mettre en oeuvre un systeme de reconnaissance de 
parole distribute selon Tune des revendications 1 a 8 comprenant : 

des moyens de reception, en provenance d'un terminal utilisateur, 
15 d'un signal selectionne audit terminal ; 

des moyens de calcul de parametres de modelisation d'un signal 
d'entree ; 

des moyens de reconnaissance pour associer au moins une 
forme memorisee a des parametres d'entree ; et 
20 - des moyens de controle pour commander les seconds moyens de 

calcul et les moyens de reconnaissance de fagon a 
lorsque le signal selectionn6 regu par les moyens de reception est 
de type audio, activer les moyens de calcul de parametres en leur adressant le 
signal selectionne en tant que signal d'entree, et adresser les parametres 
25 calcules par les moyens de calcul aux moyens de reconnaissance en tant que 
parametres d'entree, et 

lorsque le signal selectionne regu par les moyens de reception 
indique des parametres de modelisation, adresser lesdits parametres indiques 
aux moyens de reconnaissance en tant que parametres d'entree. 

30 

14. Serveur selon la revendication 13 comprenant des moyens pour 
telecharger des ressources logicielles de reconnaissance vocale par 
Pintermediaire du reseau de telecommunications 3 destination d'un terminal au 
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moins une partie des premiers moyens de calcul de parametres ou des 
moyens de reconnaissance du terminal. 

15. Serveur selon la revendication 14 comprenant des moyens pour 
5 telecharger des ressources logicielles de reconnaissance vocale par 
I'intermediaire du reseau de telecommunications a destination d'un terminal. 



16. Serveur selon la revendication 15, dans lequel lesdites ressources 
comprennent au moins un module parmi : un module de VAD, un module de 
10 calcul de parametres de modelisation d'un signal audio et un module de 
reconnaissance pour associer au moins une forme memorisee a des 
parametres de modelisation. 
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